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摘要 : [目的 /意义 ] 以 Data Citation Index (DCI) 数据 库 高 能 物理 领域 科学 数据 为 研究 对 象 ， 
探究 高 能 物理 领域 科学 数据 的 复 用 特征 及 影响 因素 ,为 推动 我 国 数据 共享 和 引用 规范 性 、 提 
升 数据 价值 和 影响 力 提 供 参 考 与 借鉴 。[ 方 法 /过 程 ] 利 用 DCI 数据 库 的 数据 基本 信息 和 引用 
信息 ， 采 用 统计 回归 方法 ， 通 过 科学 数据 属性 特征 、 科 学 数据 复 用 特征 、 科 学 数据 属性 特征 
与 复 用 特征 相关 性 3 个 维度 开展 高 能 物理 领域 科学 数据 复 用 特征 及 影响 因素 的 分 析 。[ 结 果 / 
结论 ] 研 究 结果 表明 , 高 能 物理 领域 科学 数据 共享 数量 逐年 递增 , 但 数据 字段 缺失 比例 较 高 ， 

数据 复 用 受 数据 等 级 、 出 版 模式 和 学 科 类 别 的 影响 较 大 ， 导 致 被 引 频 次 分 布 极 不 均匀 ， 高 等 
级 科学 数据 更 易 获 得 高 复 用 次 数 ， 科 学 数据 共享 和 引用 规范 有 待 进一步 加 强 。 最后， 本 文 据 
此 提出 高 能 物理 科学 数据 复 用 的 优化 提升 路 径 。 
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Abstract: [Purpose/significance] By utilizing the Data Citation Index (DCD) database, this article 
explores the reuse features and influencing factors of scientific data in the field of high-energy 
physics. These findings serve as a point of reference and support, facilitating the promotion of data 
sharing and citation standardization in China. Moreover, these contribute to the augmentation of 
both value and influence of scientific data.[Method/process] This article adopt statistical regression 
methods to analyze the basic and citation features of the DCI database. For the reuse features and 
influencing factors, the analysis includes three dimensions: scientific data attribute features, reuse 
features, and correlation between attribute and reuse features. [Resultconclusion] The research 
findings reveal that the publication volume of scientific data in the field of high-energy physics is 
exhibiting an increasing trend. However, the proportion of missing data fields is relatively high. The 
reuse of high-energy physics scientific data is significantly influenced by publication modes and 
disciplinary categories. These result in the extremely uneven distribution of citation frequency. 
High-level scientific data are more likely to be reused. Moreover, the standardization of scientific 
data sharing and citation needs further enhancement. Finally, we propose an optimization and 


improvement path for high-energy physics science data reuse based on this findings. 
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在 模型 选取 方面 ， 本 研究 以 复 用 次 数 作为 因 变 量 Y， 因 其 属于 计数 型 数据 即 取 值 为 非 负 
的 整数 数据 ,并 且 高 能 物理 科学 数据 复 用 次 数 为 0 的 比例 较 高 ,导致 复 用 次 数 标 准 差 远大 于 
均值 ， 最 终结 合 不 同 模型 的 拟 合 优 度 ， 本 文选 择 0 膨胀 泊 松 回归 模型 进行 相关 性 分 析 [ 鸣 。 回 
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发 布 时 间 以 及 前 文 所 提 及 的 高 能 物理 科学 数据 等 级 。 
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示 为 一 个 伯 努 利 分 布 和 一 个 泊 松 分 布 的 混合 模型 ， 记 Y 坚 ZY', 其 中 Z 服 从 参数 为 1 一 zt 的 伯 
努 利 分 布 ，Y' 服 从 参数 为 4 的 泊 松 分 布 ， Z 和 六 这 两 个 分 布 都 会 生成 0 值 。 因 此 ， 因 变量 Y 的 
概率 分 布 表 示 为 : 
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其 中 , 参数 r 和 4 写 为 自 变量 X 的 回归 模型 , 即 log(4) = Xp,logit(n) = Xy,X = (Xi1,... Xp)€R? 
表示 p 个 自 变 量 ，Bm e R? 和 ym e 及 表示 对 应 的 回归 系数 ，logit(r) = log(r/(L 一 7))。 

在 结果 解读 方面 ,各 个 自 变 量 回归 系数 的 绝对 值 大 小 表示 了 对 于 复 用 次 数 影响 的 相对 重 
要 程度 ， 绝 对 值 越 大 则 表示 该 特征 的 影响 越 大 。 回 归 系 数 F_〈 泊 松 部 分 的 回归 系数 ) 、y〔 伯 
努 利 部 分 的 回归 系数 ) 分 别 表示 在 保持 其 他 因素 不 变 的 条 件 下 4 的 对 数 、z 的 对 数 几 率 的 变化 
幅度 ， 再 经 过 共 线 性 检查 和 BIC 变量 选择 ， 可 以 得 到 最 终 回 归结 果 。 对 自 变量 和 可 以 根据 其 


系数 估计 值 及 显著 性 ， 解 读 如 下 : 在 保持 其 他 因素 不 变 的 条 件 下 ，(1) 若 y; < 0 或 B; > 0， 则 
表示 自 变量 % 的 增加 或 分 类 变量 取 值 为 某 类 别 时 ， 会 使 得 数据 复 用 次 数 提高 ，(2) 若 y > 0 
或 B; < 0， 则 表示 自 变量 % 的 增加 会 使 得 数据 复 用 次 数 降 低 ，(3) 车 yj 与 Bj 均 显著 不 为 0， 且 
符号 同 正 或 同 负 ， 则 需 将 系数 估计 值 代入 Y 的 概率 分 布 判断 自 变量 对 数据 复 用 次 数 的 影响 方 
向 ，(4) 泊 松 部 分 8 系数 表示 对 于 复 用 次 数 大 于 0 的 科学 数据 ( 即 Yi > 0) ， 自 变量 % 的 增加 
对 于 科学 数据 能 够 取得 更 多 复 用 的 可 能 性 。 


2.3 变量 选取 与 定义 


为 描述 科学 数据 的 基本 属性 特征 并 研究 科学 数据 复 用 特征 及 影响 因素 , 本 文 以 被 引 频次 
( 即 数据 的 复 用 次 数 ) 作为 回归 模型 的 因 变 量 Y, 并 通过 数据 预 处 理 及 观察 测试 ， 得 到 可 能 
对 数据 复 用 次 数 影响 较 大 的 出 版 模式 、 从 属 情况 、 质 量 情况 、 发 布 时 间 及 科学 数据 等 级 作为 
自 变量 X。 本 文选 取 的 变量 及 详细 定义 如 表 2 所 示 。 


i 


表 2 本 文选 取 的 变量 及 说 明 


变量 类 别 变量 名 称 变量 类 型 变量 定义 与 取 值 范围 
被 引 频次 ( 复 用 ，，， ”DCI 数据 库 中 的 “被 引 频 次 合计 ”字段 ， 取 值 范 
习 变 量 次 数 ) 计数 型 变量 。 围 从 0 到 571 


出 版 模式 多 分 类 型 变量 《Data set 等 4 种 出 版 模式 ， 基 准 组 为 Data set 


出 版 模式 若 科 学 数据 的 标题 中 出 现 Table 等 字样 则 记 为 
及 等 级 “表格 型 科学 数据 ”， 若 标 题 中 出 现 Figure 等 字 
数据 等 级 多 分 类 型 变量 《 样 则 记 为 “图 片 型 科学 数据 ”; 若 出 版 模式 为 Data 


set 而 且 非 图 片 、 表 格 型 科学 数据 ， 则 记 为 “简单 
格式 科学 数据 *， 基 准 组 为 “图 片 型 科学 数据 ” 


所 属 机 构 多 分 类 型 变量 ”HEPData 等 24 种 出 版 机 构 ， 基 准 组 为 其 他 
从 属 情况 共有 Physics, Particles & Fields 等 14 个 学 科 ， 
学 科 类 别 多 分 类 型 变量 中 部 分 科学 数据 对 应 多 个 学 和 ,将 出 岗 频 次 小 于 
10 的 学 科 合 并 为 “其 他 ”类 ， 并 作为 基准 组 
要 单位 为 个 ，DCI 数据 库 中 缺失 的 字段 个 数 , 取 值 
质量 情况 缺失 的 字段 数 连续 型 变量 范围 从 2 到 6 
EE 他 发 布 时 间 连续 型 变量 单位 为 年 , 即 该 科学 数据 发 布 年 份 , 取 值 范围 从 


1900 到 2022 


3 研究 结果 分 析 


3.1 高 能 物理 领域 科学 数据 属性 特征 分 析 
3.1.1 数据 总 体 情况 分 析 


首先 对 DCI 数据 库 中 高 能 物理 科学 数据 的 逐年 收录 情况 进行 统计 分 析 , 得 到 1980-2022 
这 40 余年 间 高 能 物理 科学 数据 逐年 收录 数量 ， 数 据 总 体 情况 如 图 2 所 示 。 
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图 2 DCI 高 能 物理 科学 数据 逐年 收录 数量 分 布 

总 体 来 看 ，DCI 收录 的 高 能 物理 科学 数据 在 1980 年 只 有 2420 条 ， 而 到 2021 年 已 经 达 

到 25203 条 ,增长 了 941.5%， 年 均 增 长 22.4%， 增 长 趋势 十 分 明显 。 从 图 中 也 可 以 清晰 地 发 
现 ， 高 能 物理 领域 科学 数据 的 收录 数量 呈现 波动 式 上 升 的 态势 ， 并 在 2006 年 后 开始 急剧 增 
这 与 科研 范式 的 转变 时 间 基 本 吻合 , 说 明科 学 数据 作为 科研 过 程 中 的 一 项 重要 成 果 产 出 ， 
共享 和 复 用 正 变 得 日 益 普遍 。 同 时 也 说 明 随 着 高 能 物理 领域 的 快速 发 展 和 资源 的 持续 投 
入 ， 其 研究 成 果 的 数量 呈现 持续 上 升 的 趋势 ， 研 究 热点 不 断 涌现 。 


3.1.2 数据 出 版 模式 分 析 


DCI 数据 库 对 数据 进行 了 多 层级 的 信息 标 引 ， 并 通过 出 版 模式 (DT) 字段 标注 了 数据 
所 属 的 层级 和 模式 。 通 过 数据 分 析 发 现 ， 高 能 物理 领域 科学 数据 共 分 为 四 种 出 版 模式 ， 分 别 
为 数据 集 (Data Set) 、 软 件 (Software) 、 数 据 研究 (Data study) 和 数据 仓储 (Repository) 。 
第 一 种 出 版 模式 为 Data Set 的 科学 数据 包括 简单 格式 数据 、 数 据 的 基本 描述 信息 、 处 理 后 得 
到 的 表格 数据 或 图 片 数据 等 ， 其 数量 占 比 最 高 ;第 二 种 出 版 模式 为 Software 的 科学 数据 通 
常 表现 为 软件 程序 包 的 形式 , 同时 还 附带 有 示例 数据 和 使 用 说 明文 档 , 可 以 帮助 研究 者 更 方 
便 地 用 其 分 析 和 处 理 其 他 数据 ; 第 三 种 出 版 模式 为 Data study 的 科学 数据 通常 是 将 数据 集 与 
相关 的 科学 研究 描述 文件 、 过 程 记 录 相 结合 ， 以 便 更 深入 地 了 解数 据 的 背景 、 来 源 和 含义 ， 
强化 了 科学 数据 与 科学 研究 之 间 的 关系 和 关联 性 ; 第 四 种 出 版 模式 为 Repository 的 科学 数据 
指 的 是 用 于 储存 和 管理 数据 集 和 软件 程序 包 的 规范 化 数据 仓储 设施 , 更 关注 于 数据 的 可 靠 查 
找 、 访 问 和 管理 服务 。 四 种 出 版 模式 的 层级 关联 关系 及 数据 数量 如 图 3 所 示 。 
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图 3 DCI 高 能 物理 科学 数据 出 版 模式 层级 关系 及 数据 数量 

由 图 可 知 ， 在 DCI 高 能 物理 科学 数据 中 出 版 模式 标注 为 数据 集 (Data Set) 的 数量 占 绝 
大 多 数 ， 比 例 高 达 98.3%。 其 次 是 软件 (Software) ， 共 2868 条 数据 ， 占 比 约 为 1.7%。 这 是 
由 于 数据 集 和 软件 是 高 能 物理 科学 数据 出 版 的 最 终 形式 ， 其 作为 独立 个 体 发 布 的 数量 较 多 ， 
数据 共享 发 布 过 程 也 较为 简单 。 而 收录 了 高 能 物理 研究 过 程 信息 的 数据 研究 (Data study ) ， 
需要 将 科研 过 程 的 临时 数据 、 描 述 文 件 和 日 志 记 录 等 信息 进行 整理 、 整 合 和 发 布 ， 共 享 发 布 
流程 较为 复杂 ， 科 研 人 员 更 习惯 将 其 中 数据 进行 独立 发 布 ， 而 非 整 合 后 发 布 。 而 数据 仓储 
CRepository) 与 高 能 物理 领域 数据 仓储 的 建设 数量 相关 ， 这 种 出 版 模式 的 数据 量 相 较 于 其 
他 三 种 模式 较 少 。 


3. 1. 3 数据 从 属 情况 分 析 


对 DCI 数据 库 高 能 物理 科学 数据 的 作者 、 团 体 作者 、 所 属 机 构 和 学 科 类 别 进行 分 别 统 
计 分 析 ， 了 解数 据 的 从 属 情况 。 通 过 计算 后 发 现 ， 共 有 超过 200 位 高 能 物理 领域 研究 者 参与 
了 超过 10000 条 科学 数据 的 研究 和 共享 工作 ，DCI 数据 库 中 高 能 物理 科学 数据 中 最 多 作者 
的 数量 达到 2840 人 。 统 计 计算 结果 也 表明 ， 大 部 分 科学 数据 是 由 少 部 分 研究 者 贡献 的 ， 符 
合 普 赖 斯 定律 。 


表 3 DCI 高 能 物理 科学 数据 高 频 团体 作者 、 所 属 机 构 与 学 科 类 别 


团体 作者 数量 所 属 机 构 数量 学 科 类 别 数量 
CMS 17070 ILL 3080 粒子 物理 149834 
ATLAS 16749 JINR 2281 > 天 体 物 23747 
STAR 7712 CERN 1846 科技 其 他 主题 5612 
ALICE 3462 a 1588 光学 893 
ZEUS 2455 ANL 1280 心理 学 108 


DCI 高 能 物理 
学 数据 的 团 


在 


科学 数据 高 频 
体 作者 十 分 署名 很 常见 ,说明 
团体 作者 署名 中 ,每 个 作者 都 对 下 


究 结 果 负 


度 和 6 


子 物 型 
从 所 属 机 构 角 度 来 看 ， 发 表 数 据 最 多 的 机 构 为 劳 厄 - 朗 之 万 研究 所 (ILL)〉， 该 机 构 位 于 法 国 
欧洲 国家 合作 资助 和 管理 ， 
欧洲 核子 研究 组 织 (CERN) 等 。 

青 况 来 看 , 数据 属于 多 学 科 交 叉 的 情况 并 不 十 分 党 


格 勒 诺 布 尔 ， 由 
多 的 机 构 还 包 提 
DCI 高 能 物理 


重复 性 。 发 布 数据 最 多 的 
构 是 全 球 最 大 的 科学 合作 组 织 之 一 ， 汇 集 了 来 
学 家 、 工 程 师 、 计 算 机 科学 家 、 技 术 人 员 和 学 生 , 有 


法 到 、 


德 


到 和 英国 与 其 他 11 个 


俄罗斯 杜 布 纳 联合 核 研究 所 (JINR)、 
科学 数据 所 属 学 科 类 别 | 


队 合 作 程度 较 高 


团体 作者 及 所 属 机 构 如 表 3 所 示 。 从 团体 作者 角度 来 看 ， 科 
高 能 物理 领域 的 科学 研究 团 
有 责任 和 义务 , 这 有 助 于 确保 研究 结果 的 可 信 
团体 为 Compact Muon Solenoid (CMS ) Collaboration， 该 机 
自 50 多 个 国家 的 约 240 个 研究 所 和 大 学 的 粒 


。 此 外 ， 


超过 3000 名 研究 人 员 参 与 其 


中 。 


他 发 布 


数据 较 


见 ， 绝 大 多 数 数据 都 标注 了 明确 的 学 科 类 别 。 其 中 ， 粒 子 物 理 数据 为 149834 条 ， 占 比 高 达 
86.8%， 排 名 第 一 。 数 量 较 多 的 学 科 还 包括 天 文 与 天 体 物理 学 、 科 技 其 他 主题 及 光学 等 ， 
他 还 出 现 了 心理 学 、 生 命 科学 等 交叉 学 科 。 


3.1.4 数据 质量 情况 分 析 


对 DCI 高 能 物理 科学 数据 的 缺失 情况 进行 统计 ， 进 而 分 析 数 据 的 质量 情况 ， 结 果 如 表 
所 示 。 从 中 可 以 发 现 三 个 主要 问题 : 首先 ， 部 分 重要 字段 缺失 比例 较 高 ， 如 关键 词 (DE) 字 
段 ， 其 缺失 比例 达 91.4%， 关 键 词 对 于 数据 检索 和 发 现 有 着 极其 重要 的 意义 ， 完 善 的 关键 词 
有 助 于 提高 科学 数据 被 发 现 和 复 用 的 概率 。 其 次 ， 对 于 作者 机 构 、 地 址 等 重要 信息 ， 普 这 存 
在 未 统一 和 消 靶 的 情况 ， 数 据 填 写 较为 随意 ， 导 致 统计 分 析 时 产生 较 大 误差 。 最 后 ， 字 段 含 
义 不 清 晰 ， 以 数据 类 型 (DY) 字段 为 例 ， 其 缺失 比例 达 80.0%， 且 含义 不 明确 ， 其 中 既 有 
“Scattering Data” 表 示 数 据 类 型 是 散 点 型 ， 也 有 “Astronomical Data ”表示 数据 属于 天 文学 领 
域 , 还 有 “Monte Carlo Simulation” 表 示 该 数据 是 蒙特 卡 洛 随机 模拟 数据 。 这 说 明 该 字段 的 定 
义 不 够 清楚 和 明确 ， 导 致 作者 填写 的 信息 类 型 含义 不 一 致 或 漏 填 。 

表 4DCI 高 能 物理 科学 数据 部 分 字段 含义 及 缺失 比例 
字段 ”含义 缺失 比例 ”| 字段 ”含义 缺失 比例 
UR 该 科学 数据 的 网 站 链接 97.7% PY 版 年 份 0 
DE 科学 数据 关键 词 91.4% SO 出 版 机 构 0 
DY 数据 类 型 80.0% SU 学 科 0 
Cl 和 者 机 构 及 地 址 78.2% II 标题 0 
CA 局 体 作者 54.9% Ul 使 用 次 数 ( 近 180 天 ) 0 
MI 数据 表格 的 标注 标签 36.6% U2 使 用 次 数 (2013 年 至 今 ) 0 
DI 数字 对 象 标识 符 (DOD 2.3% UT 入 藏 号 0 
DT 出 版 模式 0 WC ”WOS 学 科 类 别 0 


LA 语种 0 被 引 频 次 合计 0 
NR 引用 的 参考 文献 数量 0 出 版 物 类 型 0 


3.2 高 能 物理 领域 科学 数据 复 用 特征 分 析 
3. 2.1 数据 复 用 情况 分 析 


通过 科学 数据 的 被 引 频 次 (2Z9) 字段 对 科学 数据 的 复 用 情况 进行 研究 , 将 被 引 频次 作为 
科学 数据 复 用 次 数 进行 计算 分 析 。 经 过 研究 发 现 ， 有 86.2% 的 科学 数据 的 复 用 次 数 为 0， 有 
13.7% 的 科学 数据 复 用 次 数 为 1， 而 复 用 次 数 大 于 1 的 科学 数据 仅 占 0.1%，DCI 高 能 物理 科 
学 数据 复 用 次 数 分 布 情况 如 图 4 所 示 。 
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4 DCI 高 能 物理 科学 数据 复 用 情况 


由 图 4 可见, 高 能 物理 科学 数据 的 复 用 次 数 分 布 极 不 均匀 , 绝 大 多 数 的 科学 数据 的 复 用 
次 数 很 低 , 而 极 少数 科学 数据 的 复 用 次 数 很 高 , 这 与 期 刊 论文 的 被 引 频 次 分 布 规律 是 一 致 的 。 
如 图 4 也 可 知 ， 经 对 数 处 理 后 的 复 用 次 数 ， 其 窜 率 分 布 的 拟 合 优 度 R?=0.9235， 近 似 服从 需 
律 分 布 。 从 整体 情况 来 看 ,高 能 物理 领域 科学 数据 的 整体 复 用 比例 较 低 ,平均 复 用 次 数 为 0.15 
次 , 这 表明 高 能 物理 领域 科学 数据 的 复 用 仍 有 较 大 的 提升 空间 , 相 比 于 生物 医学 等 领域 科学 
数据 被 复 用 的 次 数 偏 低 中 1。 


3. 2.2 高 被 引 数据 分 析 


对 高 能 物理 科学 数据 的 高 被 引 情况 进行 分 析 发 现 ， 在 所 收集 的 172684 条 数据 中 ， 仅 有 
10 条 数据 的 复 用 次 数 高 于 20 次 。DCI 高 能 物理 领域 排名 前 5 的 高 被 引 科 学 数据 的 具体 情况 
如 表 5 所 示 ， 其 中 “ 复 用 次 数 ” 指 能 够 从 Web of Science 核心 合集 、Arabic Citation Index、 
BIOSIS Citation Index、 中 国 科 学 引文 数据 库 、Data Citation Index、Russian Science Citation 
Index、SciELO Citation Index 这 7 个 数据 库 中 收集 得 到 的 数据 被 引 频次 之 和 ， 除 论文 引用 以 


外 ， 还 包括 来 自 专利 、 报 告 、 软 件 等 出 版 物 的 引用 。“ 来 自 论文 引用 的 频次 ” 指 来 自 论文 而 


非 其 他 出 版 物 的 引用 频次 ， 排 除了 其 他 渠道 引用 数据 的 影响 。“ 来 自 本 领域 的 引用 频次 ” 指 
来 自 于 高 能 物理 领域 出 版 物 的 引用 次 数 , 既 包 括 来 自 高 能 物理 领域 论文 的 引用 次 数 ， 也 包括 
来 自 高 能 物理 领域 的 专利 、 报 告 、 软 件 等 其 他 出 版 物 的 引用 次 数 。 
表 5 DCI 高 能 物理 高 被 引 科学 数据 情况 
\ ? 。 来 自 论文 的 ”来自 本 领域 

科学 数据 标题 年 份 出 版 模式 学 科 类 别 复 用 次 数 引用 频次 ”的 引用 频次 

ATNF Pulsar 2003 。 数据 仓储 从 文人 多 571 421 422 

Database 二 可 

Sloan Digital Sky 

Survey SkyServer 2003 ”数据 研究 天 文 与 天 体 物 106 90 90 

SDSS Data Release 1 十 了 

(DR1) 

pynbody: NBody/SPH 2013 软件 XX 作物 0 30 30 

理学 

analysis for python 

A Study of Bhabha 

Scattering at PETRA 1988 ”数据 集 粒子 物理 29 29 29 

Energies 

Sloan Digital Sky 2000 ”数据 仓储 天 文 与 大 体 物 26 15 6 

Survey 二 


由 上 表 可 见 ，DCI 高 能 物理 科学 数据 复 月 


日 次 数 最 高 的 是 “ATNF Pulsar Database”， 该 数 


据 是 出 版 类 型 为 数据 仓储 的 科学 数据 , 该 数据 仓储 收集 了 所 有 已 知 旋转 动力 脉冲 星 和 磁 星 的 


续 的 


对 护 更 新 ， 并 提供 相关 的 代码 工具 供 


世界 各 二 


“Sloan Digital Sky Survey” 同 样 为 数据 仓储 类 型 


六 


天 项 目 数据 库 ， 数 据 来 自 
目 也 被 称 


位 


国 新 墨西哥 / 
为 全 世界 最 成 功 的 巡天 计划 之 一 。 其 他 3 个 数据 集 分 别 为 出 版 类 型 为 数据 研究 、 软 


件 和 数据 集 的 科学 数据 , 包括 同样 来 


了 柯 惧 


计 


自 于 斯 隆 数 字 巡 天 项 目 


体 物理 模拟 的 分 析 框 架 软 件 (pynbody) 以 及 TASSO 合 


据 和 


pa 
O 


通过 高 被 引 科学 数据 的 情况 分 析 可 以 看 
据 被 高 复 用 的 关键 必要 条 件 。 此 外 ,天文 与 天 体 物 形 


学 数据 的 1.6%， 但 在 高 被 引 数据 中 确 占 比 和 排名 均 明 显 高 于 粒子 物理 


次 数 。 


基本 参数 ,由 澳大利亚 国家 科学 机 构 CSIRO 的 空间 和 天 文学 业务 部 门 运营 和 管理 , 保持 持 
机 构 的 研究 人 员 访 问 使 / 
的 科学 数据 ， 该 数据 为 美国 


A 
口 


山顶 天 文 


发 布 的 数据 研究 类 型 的 数据 、 
芷 组织 对 Bhabha 散射 多 年 的 研究 数 


j。 排 名 第 五 的 


的 斯 隆 数 字 巡 
的 2.5 米 口 径 望 远 镜 ， 该 项 


天 


,持续 性 的 科学 数据 运营 


LE 学 的 科学 数 


管理 和 维护 更 新 是 数 


数量 虽然 只 有 粒子 物理 科 


， 得 到 了 较 多 的 引用 


3.3 科学 数据 属性 特征 与 复 用 特征 相关 性 分 析 


3. 3.1 数据 属性 特征 对 复 用 影响 分 析 


关 


从 属 情况 、 质 量 
型 结果 如 错误 ! 
在 0. 


或 因 


S 系 进行 总 体 | 


| 


通过 0 膨胀 并 


松 


归 模 型 ， 


博 


况 分 析 , 据 此 探究 复 


本 文 对 高 能 物理 科学 数据 的 属 


的 显著 


性 特征 


与 复 ) 


情况 对 
未 找到 引用 源 。 所 示 ， 


于 复 


001 水 平 


在 设 定 的 0.001 水 : 


下 显著 不 为 0， 


情况 的 影响 程度 。 经 过 
省 略 了 截 E 


互 


E 项 的 估 


表 3 0 膨胀 泊 松 回归 模型 的 系数 估计 结果 


特征 之 间 的 相 


因素, 并 度量 科学 数据 等 级 、 出 版 模式 、 
过 计算 , 本文 所 得 到 的 0 膨胀 泊 松 回归 模 
计 结 果 ， 系 数 上 标 “***” 表 示 
“ 指 #” 表 示 经 BIC 变量 选择 后 该 自 变 量 未 被 纳入 最 终 模型 ， 
“下 不 显著 而 省 略 。 


复 用 次 数 的 影响 。 其 中 系数 8 对 应 于 复 
部 分 Bj 系数 的 含义 可 解释 为 ， 在 保持 其 他 


系数 估计 结果 
自 变 量 类 别 自 变 量 名 称 
伯 努 利 部 分 7 泊 松 部 分 6 
数据 仓储 (Level-3 或 4) 拓 # 4.979™* 
软件 (Level-3 或 4) #### 2.882 
出 版 模式 及 数据 研究 (Level-3 或 4) -6.997 2.592™™ 
等 级 简单 格式 数据 (Level-2) 提 ## 拉 # 
图 片 型 数据 (Level-1) 拓 # 天 # 
表格 型 数据 (Level-1) 拓 # 拓 ## 
从 属 情况 : 天 文 与 天 体 物 理学 ### 4.420™ 
学 科 关 列 粒子 物理 拓 和 # 拓 # 
Astrophysics Source Code Library 权 ## -2.751™™ 
Centre De Donnees Astronomiques a 
大 ## -8.672 
De Strasbourg 
从 属 情况 : CERN Open Data Portal ### 3.297™™ 
所 属 机 构 HEPData ### 3.776™ 
Institut Laue-Langevin ### 1.216™™ 
Planetary Data System -10.986 -1.800 
质量 情况 缺失 的 字段 数目 Hf# 天 ## 
时 间 效 应 发 布 时 间 9.164 0.314 
对 错误 ! 未 找到 引用 源 。 中 模型 系数 估计 结果 进行 解读 ， 可 得 到 科学 数据 属性 特征 对 于 


次 数 大 于 0 时 ， 自 变量 对 于 复 / 
因素 不 变 的 条 件 下 ， 如 果 pj; 值 


1 次 数 的 影响 。 泊 松 
越 大 ， 那 么 自 变量 X， 


对 应 的 类 别 ， 就 更 有 可 能 使 得 科学 数据 获得 更 多 复 用 次 数 并 成 为 高 被 引 数据 。 最 终 ， 
上 系数 估计 结果 ， 可 得 出 以 下 结论 : 

(1) 对 于 出 版 模式 及 科学 数据 等 级 的 层面 ， 相 比较 于 数据 等 级 为 Level-1 的 图 
据 和 表格 型 数据 , 高 等 级 的 科学 数据 因 其 规范 化 的 仓储 设施 、 更 丰富 的 数据 背景 信息 


根据 以 


片 型 数 
以 及 相 


关 软 件 的 介绍 ， 从 而 更 易 获 得 更 多 的 复 用 次 数 。 例 如 ， 对 于 复 用 次 数 大 于 0 的 科学 数据 ， 若 


出 版 模式 为 数据 仓储 , 则 在 保持 其 他 因素 不 变 的 条 件 下 , 该 科学 数据 的 平均 复 用 次 数 
型 科学 数据 高 4.979 次 。 

(2) 对 于 从 属 情况 中 的 学 科 层 面 ， 学 科 类 别 聚 焦 于 “天 文 与 天 体 物理 学 "的 科学 
复 用 可 能 性 比 粒子 物理 、 多 学 科 类 别 、 或 不 确定 学 科 类 别 归 属 的 科学 数据 更 高 。 对 于 
况 中 的 所 属 机 构 层面 , 所 属 机 构 与 出 版 模式 和 学 科 类 别 自 变量 之 间 存 在 相关 性 , 不 同 
在 出 版 模式 和 学 科 类 别 的 选择 上 有 所 偏好 ， 表 现 出 一 定 规律 性 。 

(3) 对 于 数据 质量 的 层面 ， 在 保持 其 他 因素 不 变 的 条 件 下 ， 字 段 缺 失 数量 对 于 
影响 并 不 显著 。 字 段 缺 失 数量 与 复 用 次 数 之 间 的 皮尔 逊 相关 系数 <0.1。 根 据 进一步 的 
析 发 现 ， 这 是 因为 不 同类 型 、 学 科 的 科学 数据 之 间 存 在 着 字段 缺失 数量 的 差异 ， 而 不 
缺失 数量 本 身 对 复 用 有 显著 影响 。 

从 科学 数据 管理 层面 考虑 , 科学 数据 中 心 、 出 版 机 构 本 身 对 于 提高 高 能 物理 科学 
复 用 比例 及 次 数 均 存 在 着 迫切 需求 。 为 研究 科学 数据 复 用 的 优化 提升 路 径 ， 本 文 对 各 
对 于 数据 复 用 次 数 的 平均 正 向 影响 程度 进行 刻画 , 结果 如 图 2 所 示 。 出 版 模式 及 科学 


比 图 片 


数据 的 
从 属 情 
机 构 会 


复 用 的 
描述 分 
字 


段 


三 | 
全 


数据 的 
自 变量 
数据 等 


级 这 一 类 自 变量 对 于 复 用 次 数 的 平均 影响 强度 为 3.48， 在 四 类 自 变量 中 能 够 占据 30% 的 影 
响 力 。 而 发 表 时 间 、 学 科 类 别 与 所 属 机 构 均 由 科学 数据 作者 自主 选择 ， 相 对 来 说 较为 客观 ， 


非 数据 管理 者 的 可 控 因 素 。 因 此 , 提高 科学 数据 等 级 将 会 是 优化 和 提升 科学 数据 复 ) 
路 径 。 科学 数据 管理 者 可 主动 利用 计算 资源 通过 构造 数据 论文 关联 关系 等 方式 , 提高 
据 等 级 ， 以 增加 其 被 复 用 的 可 能 性 。 


出 版 模式 及 数据 等 级 ] 3.48 ] 


学 科 类 别 4.42 


所 属 机 构 这 


图 2 不 同 自 变 量 对 数据 复 用 次 数 的 平均 正 向 影响 程度 


3. 3. 2 数据 出 版 与 等 级 对 复 用 影响 分 析 


| 的 有 效 


科学 数 


通过 0 膨胀 泊 松 回归 模型 , 得 到 了 不 同属 性 特征 对 于 复 用 次 数 影 响 的 总 体 情况 , 探究 了 
能 够 提高 平均 复 用 次 数 的 影响 因素 ,为 进一步 细致 比较 出 版 模式 及 数据 等 级 对 于 数据 复 用 次 
数 的 影响 ， 本 文 首先 对 4 种 出 版 模式 的 科学 数据 复 用 情况 进行 研究 。 由 于 0 取 对 数 无 意义 ， 
故 对 复 用 次 数 +0.01 后 再 取 对 数 ， 得 到 的 复 用 次 数 分 布 如 图 3 〈a) 所 示 ， 将 纵 坐 标 向 上 平移 
2 个 单位 使 得 最 小 取 值 为 0。 由 图 中 可 以 看 出 ， 出 版 模式 为 数据 仓储 《Repository) 的 科学 数 
据 的 平均 复 用 次 数 最 高 ， 其 次 是 数据 研究 (Data study) ， 远 高 于 软件 (Software ) 和 数据 集 
(Data Set) 。 其 中 各 箱 体 的 又 号 代表 平均 复 用 次 数 ， 箱 体内 部 的 黑色 横 线 代表 中 位 数 ， 各 
出 版 模式 的 科学 数据 复 用 次 数 表 现 为 极 不 均匀 的 右 偏 分 布 , 因此 平均 复 用 次 数 大 于 复 用 次 数 
中 位 数 。 另 外 , 由 于 软件 和 数据 集 这 两 种 出 版 模式 的 科学 数据 , 其 复 用 次 数 的 中 位 数 均 为 0， 
所 以 中 位 数 黑色 横 线 与 箱 体 的 下 横 线 重合 。 


6 


Me 


an 


Log10〈 复 用 次 数 +0.01) 
(wo 
log10( 复 用 次 数 +0.01) 


数据 仓储 数据 研究 软件 数据 集 数据 仓储 数据 研究 ”软件 ”简单 格式 ”表格 图 片 
出 版 模式 数据 等 级 


图 3 不 同 出 版 模式 和 等 级 的 高 能 物理 科学 数据 复 用 情况 


结合 科学 数据 等 级 、 数 据 格式 和 出 版 模式 ， 科学 数据 可 以 被 进一步 细 分 为 6 种 类 型 , 包 
舌 Level-1 的 表格 和 图 片 型 数据 集 、Level-2 的 简单 格式 数据 集 、Level-3 或 Level-4 的 数据 研 
究 、 软 件 和 数据 仓储 数据 ， 得 到 结果 如 图 3 (b) 和 表 4 所 示 。 由 图 表 可 以 得 出 两 方面 的 结 
论 : (1) 从 平均 复 用 次 数 的 层面 ， 属 于 Level-1 等 级 的 表格 数据 平均 复 用 次 数 要 高 于 同 为 
Level-1 等 级 的 图 片 型 数据 ， 甚 至 高 于 等 级 更 高 的 简单 格式 数据 和 软件 。 (2) 从 高 被 引 的 层 
面 ， 软 件 和 简单 格式 数据 中 高 被 引 数据 的 个 数 及 复 用 次 数 均 多 于 表格 和 图 片 数据 , 即 科 学 数 
据 的 等 级 越 高 ， 越 容易 出 现 高 被 引 数据 。 


or 


表 4 不 同等 级 及 出 版 模式 的 复 用 情况 描述 性 分 析 


科学 数据 等 级 。 出 版 模式 样本 量 。 均值 ”标准 差 We 位 ee 位 
Level-1 数据 集 : 表格 型 数据 95527 0.211 0.408 0 1 
Level-1 数据 集 : 图 片 型 数据 7998 0.002 0.046 0 0 


Level-2 数据 集 : 简单 格式 数据 66215 0.056 0.277 0 1 


Level-3 或 4 数据 研究 67 7.540 22.071 1 89.500 

Level-3 或 4 软件 2859 0.135 0.946 0 2.420 

Level-3 或 4 数据 仓储 18 35.100 134.149 0.500 479 

为 了 检验 表 4 中 , 六 种 科学 数据 等 级 及 出 版 模式 的 复 用 次 数 之 间 的 差异 是 否 显 著 , 本 文 
将 其 两 两 为 一 组 进行 被 引 频次 的 独立 样本 均值 检验 。 原 假设 表示 两 种 科学 数据 的 复 用 次 数 无 
显著 差异 。 由 于 复 用 次 数 呈 现 极 不 均匀 的 非 正 态 分 布 ， 因 此 采用 Wilcoxon 秩 和 检验 方法 ， 
假设 检验 的 p 值 结果 见 表 5。 根 据 表 5 的 结果 ， 可 认为 在 0.01 的 水 平 下 (1) 整体 来 看 ， 
科学 数据 等 级 之 间 的 复 用 次 数 的 差异 显著 , 结合 统计 回归 的 结果 , 预期 提高 科学 数据 等 级 能 
够 显著 提高 复 用 次 数 ，(2) 对 于 科学 数据 等 级 为 Level-3 或 4 的 数据 研究 和 数据 仓储 ， 这 两 
种 出 版 模式 的 科学 数据 的 复 用 次 数 差异 不 显著 。 

表 5 复 用 次 数 差异 的 显著 性 检验 结果 

出 版 模式 表格 型 数据 ”图 片 型 数据 ”简单 格式 数据 软件 ”数据 研究 数据 仓储 

表格 型 数据 <0.001 <0.001 <0.001 0.008 <0.001 

图 片 型 数据 <0.001 <0.001 <0.001 <0.001 

简单 格式 数据 0.002 <0.001 <0.001 

软件 <0.001 <0.001 

数据 研究 0.887 

数据 仓储 
4 讨论 与 建议 

通过 本 文 分 析 结 果 来 看 ， 高 能 物理 领域 科学 数据 具备 多 源 、 异 构 、 复 杂 等 特点 ， 导 致 数 
据 共享 和 复 用 仍然 存在 着 很 大 提升 空间 。 首先 , 高 能 物理 科研 人 员 更 习惯 于 在 领域 数据 仓储 
或 数据 平台 中 共享 和 复 用 数据 ， 如 INSPIER、HEPDATA、Zenodo 等 ， 而 DCI 等 多 学 科 科 


学 数据 共享 和 索引 平台 并 未 得 到 广泛 应 用 , 国内 只 有 清华 大 学 图 


据 库 的 访问 权限 ,导致 无 法 建立 起 统一 的 引用 标准 和 规范 ,影响 了 数 
高 能 物理 科学 数据 通常 容量 较 大 ， 如 Level-2 以 上 级 别 的 数据 可 能 达到 PB 级 以 


据 的 保存 和 共享 带 来 了 极 大 困难 , 需要 投入 较 多 成 本 | 
能 物理 科学 数据 质量 层次 不 齐 ， 部 分 重要 字段 如 作者 、 
员 造 成 较 大 困扰 ， 或 因 无 法 判断 数据 的 完整 性 


关键 词 
导致 数据 被 复 | 


j 于 存储 和 网 络 设备 的 建设 。 最 
等 存在 较 多 缺失 ， 
j 的 可 能 


忆 馆 等 少量 机 构 开 通 了 该 数 


时 的 传播 和 复 用 。 其 次 


伏 ， 


上 ， 这 给 数 


=] 


16 


这 给 科研 人 


已 ， 


性 进一步 减 小 。 
4.1 提升 科学 数据 等 级 ， 实 现 高 能 物理 科学 数据 价值 ， 增 加 可 复 用 性 


高 能 物理 科学 数据 的 分 级 分 类 


出 版 模式 给 复 月 


数据 带 来 了 较 大 便利 , 科研 人 员 和 数据 仓 


储 可 主动 发 挥 管理 效能 , 利用 现 有 技术 手段 , 提高 高 能 物理 科学 数据 的 出 版 模式 和 数据 等 级 。 


根据 实证 研究 结果 ， 提 高 科学 数据 能 级 是 能 够 显著 加 速 提高 科学 数据 复 
首先 ， 对 于 Level-1 图 片 或 表格 形式 的 科学 数据 ， 利 月 
技 文献 及 数据 进行 关联 ， 将 科学 数据 等 级 从 Level-1 提升 至 接近 Level-2 的 简单 格式 数据 ， 


能 够 为 后 续 研 究 者 提供 更 多 参考 信 


现 有 的 科学 数据 管理 规范 制度 的 建设 与 应 月 


求 ， 根 据 《 科 技 计 划 形 成 的 科学 数据 


自 


4D 


次数 的 可 行 手 段 。 


已 有 技术 可 将 其 与 其 他 密切 相关 的 科 


。 其 次 ， 对 于 Level-2 简单 格式 数据 ， 将 科学 数据 与 相 
关 的 软件 、 程 序 包 建 立 关 联 ， 促 使 科学 数据 等 级 从 Level-2 提升 至 更 高 层次 ， 使 得 其 能 够 更 
好 地 支撑 完整 的 科学 分 析 流 程 。 通过 以 上 两 种 提高 科学 数据 等 级 的 可 行 途 径 , 能 够 高 效 地 提 
高 科学 数据 可 复 用 性 ， 加 快 科学 数据 的 共享 与 传播 。 


4.2 完善 科学 数据 规范 制度 ， 保 证 科学 数据 基础 质量 


有 尚 不 完善 ， 需 要 对 科学 数据 的 汇 交 、 保 存 、 
开放 推广 等 方面 进行 引导 与 规范 。 具体 包括 : 第 一 ,科学 数据 管理 方 应 明确 对 于 提交 方 的 要 
- 交 技术 与 管理 规范 》 等 国家 标准 ， 进 一 步 拓展 明确 
建立 与 应 用 高 能 物理 科学 数据 标准 ， 引 导 作者 和 出 版 机 构 补 充 科学 数据 的 背景 部 分 的 介绍 。 


针对 部 分 重要 字段 缺失 比例 较 高 的 问题 , 以 及 字段 含义 不 清晰 的 问题 , 明确 有 价值 的 字段 的 


AAA 


含义 ， 以 及 给 出 示范 以 提高 科学 数据 的 对 应 字段 的 准 胡 
能 够 按照 规范 标准 进行 科学 数据 的 采集 生成 加 工整 理 ， 保 证 所 提交 的 科学 数据 的 真实 性 、 准 


确 性 、 可 用 性 、 完 整 性 、 一 致 性 、 


安全 性 等 。 


性 。 这 样 能 够 使 得 科学 数据 的 提交 方 


第 二 ， 对 于 科学 数据 管理 方 本 身 ， 应 建立 拓展 高 能 物 到 


查 报告 ,保障 汇 交 数据 质量 。 在 科学 数据 的 复 用 方面 ， 应 充分 型 


出 版 模式 对 于 科学 数据 复 用 的 促进 作 上 月 


日 , 出 版 模式 为 数 和 


科学 数据 质量 审查 制度 ,出具 


解数 据 仓 储 、 数 据 研 究 的 一 


居 仓 储 和 数据 集 及 其 研究 的 科学 数据 


的 复 用 性 显著 高 于 图 片 型 表格 型 科学 数据 ,可 注重 集约 化 建设 高 质量 的 数据 仓储 设施 。 以 这 
些 建 议 为 试点 ， 有 助 于 明确 科学 数据 复 用 的 规范 和 要 求 ， 提高 科学 数据 的 出 版 质量 和 流通 效 


率 ， 促 进 科 学 数据 的 复 用 以 充分 挖 


掘 科 学 数据 的 内 在 价值 。 


4.3 完善 高 能 物理 科学 数据 分 级 分 类 共享 机 制 ， 实 现 高 质量 可 持续 发 展 


科学 数据 的 分 级 分 类 机 制 是 实现 科学 数据 全 生命 周期 安全 管理 的 重要 手段 , 能 够 保证 科 
学 数据 的 机 密 性 安全 要 求 , 以 及 考虑 不 同 子 领域 研究 的 需要 ,和 不 同等 级 的 科学 数据 的 存储 


管理 成 本 。 第 一 ， 对 于 涉及 国家 秘密 的 数 所 
式 。 第 二 ， 对 于 涉及 个 人 隐私 的 科学 数据 ， 可 利 月 
理 。 第 三 ， 对 于 Level-1 等 级 的 科普 类 别 的 科学 数 
重要 资源 ， 应 采取 无 偿 帮 
子 领域 的 科学 数据 ， 应 优先 完善 提升 相关 服务 ， 保 记 
文献 、 软 件 、 程 序 包 ， 开 展 个 性 化 推荐 工作 ， 使 得 


对 国家 产业 发 展 不 形成 竞争 威胁 的 


居 ， 建 立 数 


时 保护 指导 性 规范 ,采取 禁止 开放 的 方 


差分 隐私 等 隐私 保护 算法 进行 加 密 技 术 处 
中 ， 这 类 科学 数据 属于 公众 迫切 需要 的 、 


F 放 的 方式 。 第 四 ， 对 于 前 沿 类 别 


E 科 学 数据 质量 。 对 于 其 密切 相关 的 科技 


为 试点 ， 有 助 于 保证 科学 数据 的 安 


人 


需求 ， 实 


更 能 够 支撑 完整 的 科学 分 析 。 以 这 些 建议 
岗 高 质量 可 持续 发 展 。 


4.4 完善 交流 合作 机 制 ， 推 广 宣传 高 能 物理 科学 数据 平台 的 使 用 


推广 平台 的 使 用 。 根 据 本 文 的 
为 集中 于 数据 仓储 等 完善 
j。 科 技 服务 机 构 应 协助 科学 数据 
的 可 访问 性 、 可 互 操作 性 


建议 科学 数据 中 心 与 相关 具有 科技 服务 优势 的 机 构 如 


中 心 加 强 合作 , 加 大 


高 能 物理 科学 数据 的 整体 复 | 


比例 较 低 ， 且 复 用 行 


] 性 等 质量 进行 检查 的 3 


EF 台 ， 而 DCI 数据 库 中 存在 着 海量 科学 数据 未 被 访问 和 复 
心 , 在 保证 提升 科学 数据 等 级 ， 以 及 对 汇 交 的 科学 数据 
上 之 上 ， 进 一 步 完善 科学 数据 的 外 


部 宣传 服务 。 通 过 加 大 推广 科学 数据 平台 ， 可 以 提高 科学 数据 的 可 发 现 性 。 进 一 步 地 ， 服 务 


机 构 能 够 精准 匹配 相关 科学 领域 的 
数据 库 、 国 家 高 能 物理 


5 结语 


本 文 基于 DCI 数据 库 收 集 得 到 的 高 能 物理 
述 性 分 析 , 进行 属性 特征 和 复 月 
科学 数据 管理 与 复 用 的 优化 提升 路 径 ， 对 于 
本 研究 的 结论 也 存在 一 些 


的 被 引 频次 为 0 的 比 


时 


次 较 高 的 学 科 领 域 , 如 


归 分 析 结 果 ， 从 而 探究 不 同时 间 段 内 各 个 3 


究 机 构 及 科研 人 员 ， 


科学 数据 ， 通 过 统计 


影响 因素 研究 的 结论 尚 不 够 


过 开展 关于 科学 数据 平台 如 DCI 
! 科 学 数据 中 心 的 培训 介绍 ， 从 而 促进 科学 数据 的 开放 共享 与 复 用 。 


回归 模型 及 多 视角 的 描 
EF 研究。 本文 的 研究 提出 了 高 能 物理 
提高 科学 数据 的 复 用 比例 提供 了 参考 。 

拓展 研究 的 地 方 。 第 一 ， 
网 高 达 86.2%， 且 关键 词 等 字段 缺失 比例 高 ， 这 使 得 对 科学 数据 复 用 
FE 富 , 很 多 特征 对 于 被 引 频 次 的 景 
FE 物 医学 领域 , 可 以 通 


由 于 高 能 物理 科学 数据 


响 不 显著 。 而 对 于 平均 被 引 频 
时 间 段 与 科学 数据 关键 词 的 交叉 项 的 


el 


9 影响 程度 ,可 以 得 到 更 为 丰富 且 细 粒 


度 的 影响 因素 的 研究 结论 ， 以 及 更 为 细 粒 度 的 针对 性 指导 建议 。 第 二 ， 由 于 不 同学 科 的 科学 


数据 的 特点 往往 各 不 相同 , 需要 针对 各 学 科 的 科学 数 


的 统计 回归 模型 ， 探 究 复 用 影 


四 的 特点 进行 特征 提取 , 并 选择 所 适应 
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